統計學習必學的十個問題 — 理論與實踐

統計學習必學的十個問題 — 理論與實踐

作者: 李軒涯 張暐
出版社: 清華大學
出版在: 2021-06-01
ISBN-13: 9787302577171
ISBN-10: 730257717X
裝訂格式: 平裝
總頁數: 145 頁





內容描述


統計學習是機器學習的重要分支,本書兼顧了數學上的理論和代碼實踐,內容主要包括基礎知識和統計學習模型。第1章、第2章結合VC維介紹過擬合的本質,並介紹手動特徵選擇的辦法; 第3章、第4章從最簡單的線性模型出發經過概率統計的解讀而得到分類和回歸算法; 第5章討論不依賴於假設分佈的非參數模型; 第6章介紹將核方法作為一種非線性拓展的技巧,介紹如何將該方法應用到很多算法中,並引出了著名的高斯過程; 第7章以混合高斯作為軟分配聚類的代表性方法,從而引出著名的EM算法; 第8章討論了機器學習的集成算法; 第9章介紹的線性和非線性降維方法將會解決維度災難問題,並且不同於單純的特徵選擇; 第10章討論不依賴於獨立同分佈假設的時間序列算法。 本書適合對於統計學習感興趣的大學生、工程師閱讀參考。閱讀本書需要具備基礎的Python編程技術和基本的數學知識。


目錄大綱


第1章 防止過擬合
1.1 過擬合和欠擬合的背後
1.2 性能度量和損失函數
1.3 假設空間和VC維
1.4 偏差方差分解的意義
1.5 正則化和參數綁定
1.6 使用scikit-learn
第2章 特徵選擇
2.1 包裹法Warpper
2.2 過濾法Filter
2.3 嵌入法Embedded
2.4 使用scikit-learn
第3章 回歸算法中的貝葉斯
3.1 快速理解判別式模型和生成式模型
3.2 極大似然估計和平方損失
3.3 最大後驗估計和正則化
3.4 貝葉斯線性估計
3.5 使用scikit-learn
第4章 分類算法中的貝葉斯
4.1 廣義線性模型下的sigmoid函數和softmax函數
4.2 對數損失和交叉熵
4.3 邏輯回歸的多項式拓展和正則化
4.4 樸素貝葉斯分類器
4.5 拉普拉斯平滑和連續特徵取值的處理方法
4.6 使用scikit-learn
第5章 非參數模型
5.1 K近鄰與距離度量
5.2 K近鄰與kd樹
5.3 決策樹和條件嫡
5.4 決策樹的剪枝
5.5 連續特徵取值的處理方法和基尼指數
5.6 回歸樹
5.7 使用scikit-learn
第6章 核方法
6.1 核方法的本質
6.2 對偶表示和拉格朗日乘子法
6.3 常見算法的核化拓展
6.4 高斯過程
6.5 使用scikit-learn
第7章 混合高斯:比高斯分佈更強大
7.1 聚類的重要問題
7.2 潛變量與K均值
7.3 混合高斯和極大似然估計的失效
7.4 EM算法的核心步驟
7.5 使用scikit-learn
第8章 模型組合策略
8.1 Bagging和隨機森林
8.2 Boosting的基本框架
8.3 Adaboost
8.4 GBDT和XGBoost
8.5 使用scikit-learn
第9章 核化降維和學習流形
9.1 線性降維
9.2 核化線性降維
9.3 流形學習
9.4 使用scikit-learn
第10章 處理時間序列
10.1 概率圖模型和隱變量
10.2 高階馬爾可夫模型
10.3 隱馬爾可夫模型
10.4 隱馬爾可夫模型的EM算法
10.5 使用scikit-learn
參考文獻


作者介紹


李軒涯,單位:百度公司,職務、職稱:高級工程師,性別:男,年齡:33,專業:計算機科學與技術,學歷:博士,研究成果:中國計算機學會傑出會員、常務理事,中國計算機實踐教育聯合會副理事長。現主管百度校企合作、校企聯合人才培養、校園粉絲生態圈,幫助百度技術、人才及產品品牌在高校領域的推廣與影響力傳播。




相關書籍

數值分析<進階篇> (Numerical Analysis)

作者 Timothy Sauer 林其盛 譯

2021-06-01

微積分經典題型, 3/e

作者 陳立 林易 周成

2021-06-01

研究所 2021 試題大補帖【離散數學】(107~109年試題)

作者 大碩研究所師資群

2021-06-01